AI资讯新闻榜单内容搜索-Language M

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: Language M
Attention真的可靠吗?上海大学联合南开大学揭示多模态模型中一个被忽视的重要偏置问题

Attention真的可靠吗?上海大学联合南开大学揭示多模态模型中一个被忽视的重要偏置问题

Attention真的可靠吗?上海大学联合南开大学揭示多模态模型中一个被忽视的重要偏置问题

近年来,Vision-Language Models(视觉 — 语言模型)在多模态理解任务中取得了显著进展,并逐渐成为通用人工智能的重要技术路线。然而,这类模型在实际应用中往往面临推理开销大、效率受限的问题,研究者通常依赖 visual token pruning 等策略降低计算成本,其中 attention 机制被广泛视为衡量视觉信息重要性的关键依据。

来自主题: AI技术研报
9221 点击    2026-02-06 10:39
Stable-DiffCoder超越自回归模型!扩散模型在代码生成取得新突破

Stable-DiffCoder超越自回归模型!扩散模型在代码生成取得新突破

Stable-DiffCoder超越自回归模型!扩散模型在代码生成取得新突破

扩散语言模型(Diffusion Language Models, DLLMs)因其多种潜在的特性而备受关注,如能加速的非自回归并行生成特性,能直接起草编辑的特性,能数据增强的特性。然而,其模型能力往往落后于同等规模的强力自回归(AR)模型。

来自主题: AI技术研报
10154 点击    2026-02-06 10:37
VLM剪枝新SOTA:无需重训练,注意力去偏置超越6大主流方案

VLM剪枝新SOTA:无需重训练,注意力去偏置超越6大主流方案

VLM剪枝新SOTA:无需重训练,注意力去偏置超越6大主流方案

近年来,Vision-Language Models(视觉—语言模型)在多模态理解任务中取得了显著进展,并逐渐成为通用人工智能的重要技术路线。

来自主题: AI技术研报
5835 点击    2026-01-31 12:30
刚刚,DeepSeek 再发梁文锋署名新论文:Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models

刚刚,DeepSeek 再发梁文锋署名新论文:Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models

刚刚,DeepSeek 再发梁文锋署名新论文:Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models

今天凌晨,喜欢闷声做大事的 DeepSeek 再次发布重大技术成果,在其 GitHub 官方仓库开源了新论文与模块 Engram,论文题为 “Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models”, 梁文锋再次出现在合著者名单中。

来自主题: AI资讯
10468 点击    2026-01-13 07:59
MIT发现让AI变聪明的秘密,竟然和人类一模一样

MIT发现让AI变聪明的秘密,竟然和人类一模一样

MIT发现让AI变聪明的秘密,竟然和人类一模一样

你有没有发现,你让AI读一篇长文章,结果它读着读着就忘了前面的内容? 你让它处理一份超长的文档,结果它给出来的答案,牛头不对马嘴? 这个现象,学术界有个专门的名词,叫做上下文腐化。 这也是目前AI的通病:大模型的记忆力太差了,文章越长,模型越傻!

来自主题: AI技术研报
9143 点击    2026-01-04 16:53
MIT团队推出递归语言模型!不改架构、不扩窗口,上下文处理能力扩展百倍

MIT团队推出递归语言模型!不改架构、不扩窗口,上下文处理能力扩展百倍

MIT团队推出递归语言模型!不改架构、不扩窗口,上下文处理能力扩展百倍

新年伊始,MIT CSAIL 的一纸论文在学术圈引发了不小的讨论。Alex L. Zhang 、 Tim Kraska 与 Omar Khattab 三位研究者在 arXiv 上发布了一篇题为《Recursive Language Models》的论文,提出了所谓“递归语言模型”(Recursive Language Models,简称 RLM)的推理策略。

来自主题: AI技术研报
6458 点击    2026-01-04 14:51
微信炼出扩散语言模型,实现vLLM部署AR模型3倍加速,低熵场景超10倍

微信炼出扩散语言模型,实现vLLM部署AR模型3倍加速,低熵场景超10倍

微信炼出扩散语言模型,实现vLLM部署AR模型3倍加速,低熵场景超10倍

近日,腾讯微信 AI 团队提出了 WeDLM(WeChat Diffusion Language Model),这是首个在工业级推理引擎(vLLM)优化条件下,推理速度超越同等 AR 模型的扩散语言模型。

来自主题: AI技术研报
9481 点击    2026-01-03 13:56
告别「盲目自信」,CCD:扩散语言模型推理新SOTA

告别「盲目自信」,CCD:扩散语言模型推理新SOTA

告别「盲目自信」,CCD:扩散语言模型推理新SOTA

扩散语言模型(Diffusion Language Models)以其独特的 “全局规划” 与并行解码能力广为人知,成为 LLM 领域的全新范式之一。然而在 Any-order 解码模式下,其通常面临

来自主题: AI技术研报
7240 点击    2025-12-13 10:59
DeepSeek、Gemini谁更能提供情感支持?趣丸×北大来了波情绪轨迹动态评估

DeepSeek、Gemini谁更能提供情感支持?趣丸×北大来了波情绪轨迹动态评估

DeepSeek、Gemini谁更能提供情感支持?趣丸×北大来了波情绪轨迹动态评估

近日,由趣丸科技与北京大学软件工程国家工程研究中心共同发表的《Detecting Emotional Dynamic Trajectories: An Evaluation Framework for Emotional Support in Language Models(检测情感动态轨迹:大语言模型情感支持的评估框架)》论文,获 AAAI 2026 录用。

来自主题: AI技术研报
8615 点击    2025-12-08 14:13